53 research outputs found

    Generator of Binaural Sounds Through LABVIEW and PURE DATA

    Get PDF
    Este articulo presenta el diseño e implementación de un generador de sonidos binaurales por medio de la plataforma grafica LABVIEW y el procesador de audio PURE DATA de modo que por medio de una interfaz, se pueda manipular estos determinados sonidos, es decir, se pueda variar sus características según lo desee el usuario, generando los diferentes tipos de ondas cerebrales gracias a la diferencia de frecuencias que se produce entre el audio izquierdo y el derecho. El generador no solo produce tonos binaurales puros o también denominados pulsos binaurales, sino que también se aplica en la realidad virtual, es decir, se desarrolló en la interfaz una opción que le permite al usuario interactuar con dichos sonidos por medio del movimiento de su cabeza, creando una sensación de realidad por medio de audio.This paper presents the design and implementation of a binaural sound generator by means of the LABVIEW graphic platform and the PURE DATA audio processor so that through an interface, these certain sounds can be manipulated, that is, their features as desired by the user, generating different types of brain waves thanks to the difference in frequencies that occurs between the left and right audio. The generator not only produces pure binaural tones or also called binaural pulses, but it is also applied in virtual reality, that is, an interface that allows the user to interact with said sounds through the movement of his head was developed in the interface. , creating a sense of reality through audio

    Técnicas de sonido binaural en la postproducción audiovisual

    Full text link
    La escucha binaural es un recurso que puede ser empleado en aplicaciones audiovisuales para obtener una experiencia inversiva que mejora el estéreo clásico y es comparable al sonido estéreo envolvente multicanal. Para ello es necesario un procesado específico a través de filtrado de tipo HRTF (función de transferencia derivada de la cabeza). Este proceso consiste en aplicar a cualquier sonido monofónico o estereofónico las características que el sistema auditivo necesita para interpretar la localización espacial tridimensional del sonido (indicios binaurales). Estos indicios dependen principalmente de características antropomórficas individuales, lo que introduce ciertos problemas debidos al uso de HRTF no individualizadas, como dificultad para localizar sonidos fuera de nuestra cabeza (internalizaciones) o confusiones entre delante y detrás (inversiones). Una buena comprensión de las características de la audición humana es necesaria para optimizar este procesado. En este trabajo se realiza un estado de la cuestión y un repaso de estudios realizados sobre la materia. Se constata que experimentos previos (Kistler, 1999; Mackensen, 2004; Werséni, 2009) apuntan a una mejora de la localización espacial con el uso de sonidos del mundo real, o a través de la simulación de movimientos relativos fuente sonora-oyente (indicios dinámicos). Se propone un diseño experimental consistente en un test de percepción con el fin de comparar el comportamiento de distintas señales de audio con distintas características temporales y espectrales, la influencia del movimiento y la fiabilidad de distintas herramientas de postproducción y grabación de campo binaurales. Se han probado sobre 11 sujetos, 3 tipos de sonido (espectralmente difuso, impulsivo y voz) y 4 técnicas de recreación binaural: procesado mediante software de postproducción de audio (panorama 5, binaural panner), filtrado con matlab y grabación de campo con microfonía binaural (Soundman OKM) sobre muestras estáticas y con movimiento simulado. Los resultados son muy similares para todas las técnicas de recreación, e indican que los sonidos impulsivos son detectados con más precisión y menos errores. El movimiento parece mejorar los problemas de internalización (hasta un 40%), y las confusiones detrás-delante, pero aumenta las confusiones delante-detrás y la precisión en la localización en general. Se constata que un mejor conocimiento de las características de la escucha espacial humana es de interés en la mejora de las estrategias de diseño de sonido y aplicable a la realización de productos audiovisuales novedosos de alta calidad. Binaural hearing can be used in audiovisual applications allowing an immersive experience that goes beyond the classical stereo and comparable to surround multichannel stereo sound. It requires a specific processing through HRTF (head-related transfer function). This processing consists on applying the characteristics that hearing system needs to interpret the spatial location of the sound (binaural cues) to any monophonic or stereophonic sound. These cues depend on individual anthropomorphic characteristics, what led to problems due to non-individualized HRTF processing, as inside-the-head locations or front-back confusions. A good understanding of the characteristics of human hearing is needed to improve the processing. In this work, a state-of-the-matter and a background review is done. Previous research (Kistler, 1999; Mackensen, 2004; Wersény, 2009) point to an improvement of spatial location using real-world sounds or relative listener-source movement simulation (dynamic cues). An experimental design is proposed consisting on a perceptual test to compare the behavior of different time and space shaped audio signals, the influence of movement and the reliability of different binaural audio postproduction and field recording tools. Eleven subjects have been tested with 3 different sorts of sounds (diffuse spectrum, impulsive and speech) and 4 different binaural simulation technics: audio postproduction software (panorama 5, binaural panner), matlab filtering and binaural field recording (Soundman OKM) through static and moving samples. The results are very similar regarding the simulation technics, and show that impulsive sound is more easily and precisely detected with less confusions. Movement seems to improve the inside-the-head location (up to 40%) and the back to front confusions, but increase the front-to-back and the localization blur in overall. It is verified that a better understanding of the human spatial hearing characteristics is a field of interest on improving the sound design strategies and applicable to produce high quality original audiovisual products.Rodríguez Mariño, R. (2011). Técnicas de sonido binaural en la postproducción audiovisual. Universitat Politècnica de València. http://hdl.handle.net/10251/14732Archivo delegad

    Desarrollo de herramientas de procesado y visualización para audio 3D con auriculares

    Full text link
    La Auralización o “realidad virtual acústica” es un término relativamente nuevo. Integra métodos de la física y la ingeniería acústica con la teoría de la Psicoacústica y de reproducción electroacústica [1]. El término Auralización es el análogo de la técnica de “visualización” en video 3D para el audio. En este Proyecto Fin de Carrera se describe el proceso de visualizar ciertas características, efectos o señales del sonido. Los sistemas estéreo convencionales son capaces de posicionar la imagen sonora o evento auditivo solamente en el arco virtual que une los dos altavoces. Una extensión directa de estos sistemas fueron los sistemas de sonido envolvente o sonido Surround, en donde se usan más de dos altavoces para crear una imagen sonora que se puede mover por todo el círculo que contiene a los altavoces. Por otro lado, los nuevos sistemas de audio 3D pueden posicionar la imagen sonora, usando solo altavoces (o unos auriculares), en cualquier punto de un espacio tridimensional alrededor del oyente. La Auralización describe el proceso de generación, procesado y playback de audio Surround a la altura de los oídos del oyente. Aplicaciones comunes son la resolución de un problema de Acustica, la mejora de una sala, la simulación de la respuesta en frecuencia de los altavoces para escucha con auriculares, la construcción de un edificio, un coche u otros productos. Ya que el fin último de los sistemas de audio 3D es convencer a los usuarios u oyentes de que el sonido es emitido desde una posición en la sala donde no existe físicamente una fuente o altavoz, no solo los parámetros físicos sino también los psicoacústicos juegan un papel fundamental en el diseño del sistema. El concepto de conseguir sonido tridimensional fue investigado por primera vez en relación con la modelización de campos sonoros en salas en 1929. Spandöck procesó señales derivadas de medidas en un modelo a escala de la sala con el fin de poder escuchar la acústica de la sala en el mismo laboratorio. La idea fue bien recibida, pero en esa época no había medios para ponerla en práctica. Veinte años después, en 1949, se inventaba la cinta magnética. Spandöck presenta finalmente su sistema basado en señales ultrasónicas, modelos de salas a escala y un grabador de cinta trabajando a diferentes velocidades. Los elementos básicos de la auralización se pusieron de manifiesto con este trabajo: modelado de campos sonoros, procesado y reproducción del sonido. Con el tremendo desarrollo de los computadores, el concepto de simulación y auralización fue reinventado por Schroeder a principios de 1960. No es hasta después, en la década de 1990 para cuando la era del procesado digital (DSP), las velocidades de procesador y espacio de memoria se hacen suficientemente potentes como para procesar simulaciones en ordenadores personales, el momento donde se introduce oficialmente el término Auralización. Otros campos de la acústica también han incluido este término en su argot para referirse a fenómenos relacionados con la espacialización del audio, particularmente en los ámbitos de ingeniería de sonido y acústica arquitectónica. Desde entonces, el software y hardware se ha perfeccionado considerablemente y hoy en día el software comercial para la simulación de salas acústicas se considera incompleto sin una opción de auralización mediante la tarjeta de sonido del PC o una interfaz de audio DA/AD. Buena parte del desarrollo de sistemas de audio 3D se ha basado en un único oyente posicionado en entornos anecoicos, lo que simplifica el análisis considerablemente. Sin embargo, esto acarrea normalmente que el sistema solo funcione debidamente en estos entornos aislados acusticamente. Para evitar este condicionamiento, se piensa en que los espacios de escucha sean salas reverberantes y por ello se caractericen con una respuesta al impulso de la sala (RIR) o su análogo en frecuencia la respuesta en frecuencia de la sala (RTF) de larga duración, debido a la reverberación. A una frecuencia de muestreo de 44.1 kHz (estándar de facto y también usada a lo largo de todo este proyecto) se necesitan miles de coeficientes para los filtros FIR que modelen fehacientemente una RIR. Es por ello que los sistemas de audio 3D requieren de una gran capacidad de cómputo por parte del host. Se hace indispensable aplicar la teoría de Fourier, en concreto algoritmos FFT, para trasladar el problema al dominio frecuencial con el fin de reducir la complejidad computacional. Aunque estas respuestas al impulso de larga duración puedan dificultar la implementación en tiempo real, permiten estudiar los efectos de un entorno/sala en el rendimiento del sistema. Los sistemas de audio 3D filtran señales de audio monofónicas mediante una matriz de filtros digitales que depende de la posición de la fuente sonora relativa al oyente; esto es, dependiente de las coordenadas polares (θ, φ, r). En general, las soluciones de estos filtros se componen de dos partes. La primera es la matriz de respuestas en frecuencia relacionadas con la cabeza (HRTFs) , que contiene la información direccional que el oyente debe percibir. Los coeficientes de esta matriz se obtienen normalmente de funciones de transferencia generalizadas y medidas previamente, p.ej. mediante una base de datos. La segunda es la red de cancelación de Crosstalk (cancelación de XT), que invierte la matriz de funciones de transferencia acústicas (entre altavoces y oídos del oyente) de la manera más realista y eficiente posible. Ya que las HRTFs varían considerablemente de un humano a otro debido a la compleja estructura de estas funciones, que dependen de la complexión física y psíquica así como de la estructura geométrica única de cada oído humano, calcular los filtros mediante HRTFs generalizadas degrada la imagen sonora percibida. En este Proyecto Fin de Carrera se desea describir en profundidad el estado del arte de estos sistemas así como crear un sistema de audio 3D de estas características usando el software Matlab® R2014b. Para ello, se calculan RIRs mediante una función específica para ello y las HRIRs se obtienen de bases de datos; estas ultimas se implementaron de cuatro formas. La primera es mediante un sencillo modelo matemático que modele una HRTF. Las dos siguientes son dos bases de datos de HRTFs, una elaborada en el MIT Media Lab [1] en Estados Unidos de América y otra por la universidad de Peking PKU en China, la última con la ventaja que depende también de la distancia fuente-receptor y que incluyen HRTFs para cada oído izquierdo (L) y derecho (R). El número de muestras y la frecuencia de muestreo para cada HRTF son fijas y valen 512 muestras y 44.1 kHz, respectivamente. Cada una de estas funciones corresponde con una respuesta al impulso finita (filtro FIR) con 512 coeficientes o taps. La última de las cuatros formas en la que se implementaron HRTFs en este Proyecto Fin de Carrera fue interpolando en las tres coordenadas (θ, φ, r) las HRTFs de la base de datos de la PKU. Si el sistema de auralización convoluciona un sonido con una BRIR que corresponda, por ejemplo, a un entorno reverberante con un tiempo de reverberación de aprox. 2 segundos, cada BRIR tendrá aproximadamente 23000 coeficientes a 44.1 kHz. Por tanto, se precisan métodos de convolución eficientes, procesadores potentes así como sistemas de interpolación y extracción de características binaurales para reducir el volumen de información en la medida de lo posible. Un sistema de auralización en tiempo real de alta calidad se presenta como un verdadero reto para la tecnología actual disponible. La solución es encontrar nuevas teorías y aproximaciones de simulación acústica de entornos y auralización con un balance entre precisión y tiempo de computo requerido para obtener el efecto 3D deseado. En este software de audio 3D desarrollado, la Auralización del audio original se consigue troceando por bloques la señal y dejando que el oyente defina una trayectoria en el espacio que la fuente trazará. Cada bloque de audio (que corresponde a un punto en la trayectoria) se convoluciona con una respuesta el impulso binaural de la sala (BRIR), obtenida de la convolución de la HRIR con la RIR. Los bloques procesados se solapan y suman usando el algoritmo de Solapamiento y Suma (Overlap and Add Algorithm OLA). Así se consiguen dos señales, una para cada oído. Estas señales tendrán que ser reproducidas con auriculares para la mejor experiencia.The Auralization of sound or Acoustic Virtual Reality or 3D Audio are new methods that use Physics and Sound Engineering together with the Psychoacoustic theory. Auralization of sound is the analogous of Visualization in the area of 3D Video. In this M Sc Thesis, the process of visualization of certain characteristics, effects and audio signals are investigated and developed. Conventional stereophonic systems are capable of positioning the sound image (or auditory event) only between the arc spanned by the two loudspeakers. The Surround systems were an extension of the stereophonic systems, where two or more loudspeakers were used to create an auditory image that can move through the whole circle spanned by the various loudspeakers. However, the newer 3D audio systems are capable of positioning the sound image at any point in a three-dimensional space using only two loudspeakers (or headphones). The process of auralization is, indeed, the generation, processing and playback pf surround sound at the listeners’ ears. Common applications of auralization are the simulation of a loudspeakers frequency response over headphones, the acoustic treatment of a room or building and also the acoustic simulation in a car or other systems. The goal of a 3D audio system is to trick the perception of the listener in order to make the sound emanate from a position in the room where a loudspeaker isn’t really there. Therefore, not only the physical but also the psychoacoustic parameters play a role in the system design. Three-dimensional sound was first investigated in 1929 related with the modeling of sound fields in rooms. Spandöck built small rooms such that the tests were carried out on a natural scale model. Doing so, the sound signals could be heard in the lab relatively easy. The idea was subtle, but in 1929 there wasn’t really a technology to put this in practice. Twenty years later the magnetic tape was invented. Spandöck finally brought forward his system based on ultrasonic signals and scaled room models. The fundamental elements of auralization were defined with his work: modeling sound fields, processing and reproduction of sound. With the formidable development of computers, the concept of simulation and auralization was re-written by Schroeder in the 1960s. Nevertheless, it is not until the 1990s when the DSPs, computer run-times and memories were big enough to run simulations in personal computers. It is then when the term Auralization is officially introduced. Other fields in Acoustics like in Audio Engineering have also introduced the term auralization to refer to the spatialization of sound. Since the 1990s, software and hardware have been improved considerably and nowadays commercial software for the simulation of sound in rooms is considered incomplete without an option of auralization via a sound interface or an AD/DA card. Much of the development of 3D audio systems has been based on a single user/microphone positioned in anechoic environments. This makes the analysis much easier but makes the system only usable in these acoustic isolated environments. To prevent this, one thinks in environment as a reverberant room modeled via a room impulse response (RIR) or the equivalent room transfer function (RTF). The RIR has a considerable duration because of the reverberation. Establishing the sample rate to 44.1 kHz (standard de facto and also the standard for this Thesis) one requires thousands of taps for the FIR filters that correctly model the RIR. This is the reason that 3D audio systems need great amounts of computing capacity by the host. Because of it the Fourier theory is indispensable: FFT algorithms for looking at the problem in the frequency domain and so reduce the complexity. Although these RIRs may cause difficulty in the implementation in real time, they enable to study the effects of a room in the global system. 3D audio systems filter audio signals using a matrix of filters that account for the position of the sound source relative to the receiver. That is, dependent on the polar coordinates (r, θ, ϕ). Generally speaking, the solutions to these filters are made up of two pieces. The first one is the Head-Related Transfer Functions (HRTF) matrix, which holds the directional information for the receiver. The matrix coefficients are derived from transfer functions which were previously measured or from a data base. The second one is the Crosstalk Cancelling Network. It reverts the acoustic transfer functions matrix (between loudspeakers and the ears of the listener) in the most realistic and efficient way. Because HRTFs vary a lot between humans, using generalized HRTFs degrades the perceived sound stage. The goal of this Thesis is to widely describe these 3D audio systems and also to develop a system using Matlab® R2014b. To this end, RIRs are computed using a function and HRIRs are extracted from data bases in four ways. The first way is to use a simple mathematical model. The second and third way are two HRTFs data bases, one developed at the MIT Media Lab in the USA [1] and the other at the Peking PKU in China. They include HRTFs for each ear left (L) and right (R). The third way has the advantage that it also depends on the source-receiver distance. The number of samples as well as the sample rate are fixed and of value 512 samples and 44.1 kHz, respectively. Each HRTF corresponds to a finite impulse response (FIR filter) with 512 samples or taps. The fourth way that HRTFs were obtained was by interpolating the HRTFs of the PKU database in the polar coordinates (r, θ, ϕ). Efficient convolution methods are required, powerful processors as well as interpolation systems to minimize the amount of data. The reason is that if an auralization system convolves an input sound with a BRIR that corresponds to a reverberation room with a reverberation time of let’s say, 2 seconds, each BRIR will have approx. 23000 taps at 44.1 kHz. An auralization system that operates in real time is a real challenge with the actual technology

    Sistemas de realidad virtual para el estudio del campo acústico de edificios del patrimonio artístico-cultural

    Full text link
    En este trabajo se ha estudiado la combinación de simulación gráfica y acústica para la creación de herramientas de soporte para la obtención de los requerimientos subjetivos acústicos propios de nuestro entorno cultural y los parámetros objetivos mínimos para su valoración.Montell Serrano, RE. (2010). Sistemas de realidad virtual para el estudio del campo acústico de edificios del patrimonio artístico-cultural. http://hdl.handle.net/10251/13963Archivo delegad

    Técnicas paramétricas de upmixing en ambisonics: evaluación perceptual

    Get PDF
    Ambisonics es un método para la reproducción inmersiva de audio espacial con ventajas técnicas relacionadas con la interactividad y la realidad virtual. Del mismo modo, también se conocen deficiencias en la resolución espacial cuando se utilizan grabaciones de primer orden. Utilizar órdenes superiores corrige estas deficiencias a costa de una mayor complejidad técnica y esfuerzo económico en los micrófonos que se utilizan. Cuando sólo se dispone de material en primer orden, pueden utilizarse estrategias de upmixing para aumentar la resolución espacial y el sweet spot o punto óptimo. Existen diferentes estrategias, y son estas las que se van a evaluar en este proyecto utilizando una esfera completa de 24 altavoces. Dado que las señales de los altavoces pueden convertirse en señales binaurales por medio de altavoces virtuales, las tres estrategias (DirAC, HARPEX y COMPASS) se comparan también reproduciendo las escenas a través de auriculares. El objetivo de este proyecto es presentar y analizar mediante una prueba de audio llevada a cabo en la UPNA los diferentes algoritmos de upmixing utilizados para convertir señales de Ambisonics de primer orden a señales Ambisonics de tercer orden por medio de rutinas de software.Graduado o Graduada en Ingeniería en Tecnologías de Telecomunicación por la Universidad Pública de NavarraTelekomunikazio Teknologien Ingeniaritzako Graduatua Nafarroako Unibertsitate Publikoa

    Sistema de simulación acústica virtual en tiempo real

    Get PDF
    Tesis Doctoral (DCI)--FCEFN-UNC, 2012Esta tesis se pudo realizar gracias al programa de becas doctorales internas del Consejo Nacional de Investigaciones Científicas y Tecnológicas (CONICET).Desarrolla un sistema experimental dinámico e interactivo de realidad acústica virtual, basado en arquitectura de computadoras de propósito general y que fuera flexible, escalable, fácil de mantener y modular. Para alcanzar este objetivo se modelaron tres subsistemas: la fuente sonora, el recinto y el medio de propagación, y el oyent

    Metodología de grabación Ambisonic en conjuntos musicales acústicos

    Full text link
    [ES] Uno de los métodos de grabación de sonido 3D con más crecimiento en los últimos años es el sistema Ambisonics. Para la grabación del sonido se utiliza un micrófono especial con 4 cápsulas en forma de tetraedro. Así como las técnicas de grabación estéreo en directo han sido muy estudiadas durante años, las técnicas de grabación Ambisonics son un campo en evolución. En este proyecto se trabajará en la grabación en directo de grupos musicales acústicos de diferentes tipos: grupos de jazz, bandas de rock acústicos, bandas sinfónicas, etc, adquiriendo experiencia con la práctica. Se ensayarán diferentes posiciones y distancias de grabación y se realizarán estudios subjetivos para ver las preferencias del público en cada caso. Así mismo, las grabaciones se pondrán a disposición para la I+D en otros proyectos más avanzados del grupo de investigación.[EN] One of the methods of recording 3D sound with more growth in recent years is the Ambisonics system. A special microphone with 4 capsules in the form of a tetrahedron is employed to record the sound. Just as live stereo recording techniques have been studied for years, Ambisonics recording techniques are an evolving field. In this project we will work on live recording of acoustic musical groups of different types: jazz groups, acoustic rock bands, symphonic bands, etc., acquiring experience with the practice. Different positions and recording distances will be tested and subjective studies will be carried out to see the preferences of the audience in each case. Likewise, the recordings will be made available for R & D in other more advanced projects of the research group.Rubio Arenas, J. (2020). Metodología de grabación Ambisonic en conjuntos musicales acústicos. Universitat Politècnica de València. http://hdl.handle.net/10251/156886TFG

    Sistema de ayuda a invidentes basado en cámaras de profundidad

    Get PDF
    El presente proyecto final de grado tiene como objetivo el desarrollo de un sistema de ayuda para personas con discapacidad visual empleando técnicas de visión artificial. El algoritmo desarrollado tiene un funcionamiento en tiempo real y permite al usuario el aprendizaje de objetos y la detección de los mismos mediante un dispositivo RGB-D. Una vez detectados, su localización en el espacio será transmitida a la persona invidente por medio de una técnica de localización sonora llamada técnica binaural. El algoritmo ha sido desarrollado sobre el framework de ROS, a través del cual podemos obtener la información que nos proporciona el dispositivo RGB-D utilizado y realizar los diferentes aspectos de procesado de imagen que se han empleado, tales como: filtrado de los bordes de la imagen RGB-D, detección, reconocimiento y entrenamiento de objectos, suavizado temporal mediante el Filtro de Kalman y la obtención de las coordenadas cartesianas de los diferentes objetos. Para la realización de este trabajo se ha profundizado en el análisis de los diferentes sistemas y métodos para la detección y reconocimiento de objetos que existen en la actualidad, la mejora de estos mediante técnicas de visión artificial y, por último, el estudio y aplicación de las diferentes técnicas de localización mediante sonidos binaurales. Esto representa una oportunidad para la aplicación de dichos sistemas a la ayuda a personas invidentes.The main objective of this BsC Thesis is to develop a system for helping visually impaired people using methods from computer vision. The proposed system works in real time and allows the user to detect previously learned objects with a RGB-D camera. Once an object is detected in the image, the system computes its 3D position from the user’s reference frame and sends this information to the user by means of an acoustic signal that is generated using a binaural localization model. The software has been developed using the ROS framework that provides access to the RGB-D device and the different image processing tasks: image edge filtering, object detection, recognition and learning, temporal smoothing with the Kalman Filter and the 3D localization of objects. To develop this work, existing methods for object detection and recognition from RGB cameras have been studied and their improvement using depth cameras. User interfaces based on acoustic signals have also been studied and tested in a group of real users. This BsC Thesis thus represents an opportunity to improve quality of life of visually impaired people by using state-of-the-art computer vision technologies.Grado en Ingeniería en Electrónica y Automática Industria

    Desarrollo de un sistema de multiconferencia inmersiva con audio 3D para móviles

    Full text link
    En este trabajo se desarrolla un sistema de multiconferencia con audio espacial para terminales móviles. Este sistema mejora la inteligibilidad de la conversación usando técnicas de procesado de sonido binaural HRTF y utiliza una interfaz gráfica y táctil para situar a los participantes en un espacio virtual por medio de la pantalla del terminal.Aguilera Martí, E. (2011). Desarrollo de un sistema de multiconferencia inmersiva con audio 3D para móviles. http://hdl.handle.net/10251/15357Archivo delegad

    Sistema de ayuda a invidentes basado en cámaras de profundidad

    Get PDF
    El presente proyecto final de grado tiene como objetivo el desarrollo de un sistema de ayuda para personas con discapacidad visual empleando técnicas de visión artificial. El algoritmo desarrollado tiene un funcionamiento en tiempo real y permite al usuario el aprendizaje de objetos y la detección de los mismos mediante un dispositivo RGB-D. Una vez detectados, su localización en el espacio será transmitida a la persona invidente por medio de una técnica de localización sonora llamada técnica binaural. El algoritmo ha sido desarrollado sobre el framework de ROS, a través del cual podemos obtener la información que nos proporciona el dispositivo RGB-D utilizado y realizar los diferentes aspectos de procesado de imagen que se han empleado, tales como: filtrado de los bordes de la imagen RGB-D, detección, reconocimiento y entrenamiento de objectos, suavizado temporal mediante el Filtro de Kalman y la obtención de las coordenadas cartesianas de los diferentes objetos. Para la realización de este trabajo se ha profundizado en el análisis de los diferentes sistemas y métodos para la detección y reconocimiento de objetos que existen en la actualidad, la mejora de estos mediante técnicas de visión artificial y, por último, el estudio y aplicación de las diferentes técnicas de localización mediante sonidos binaurales. Esto representa una oportunidad para la aplicación de dichos sistemas a la ayuda a personas invidentes.The main objective of this BsC Thesis is to develop a system for helping visually impaired people using methods from computer vision. The proposed system works in real time and allows the user to detect previously learned objects with a RGB-D camera. Once an object is detected in the image, the system computes its 3D position from the user’s reference frame and sends this information to the user by means of an acoustic signal that is generated using a binaural localization model. The software has been developed using the ROS framework that provides access to the RGB-D device and the different image processing tasks: image edge filtering, object detection, recognition and learning, temporal smoothing with the Kalman Filter and the 3D localization of objects. To develop this work, existing methods for object detection and recognition from RGB cameras have been studied and their improvement using depth cameras. User interfaces based on acoustic signals have also been studied and tested in a group of real users. This BsC Thesis thus represents an opportunity to improve quality of life of visually impaired people by using state-of-the-art computer vision technologies.Grado en Ingeniería en Electrónica y Automática Industria
    corecore